## Warning: package 'geojsonio' was built under R version 3.5.2
## Warning: package 'shape' was built under R version 3.5.2
## Warning: package 'kableExtra' was built under R version 3.5.2
## Warning: 9572 parsing failures.
## row col expected actual file
## 1 -- 6 columns 7 columns 'data/etablissement.csv'
## 2 -- 6 columns 7 columns 'data/etablissement.csv'
## 3 -- 6 columns 7 columns 'data/etablissement.csv'
## 4 -- 6 columns 7 columns 'data/etablissement.csv'
## 5 -- 6 columns 7 columns 'data/etablissement.csv'
## ... ... ......... ......... ........................
## See problems(...) for more details.
## Warning: 2 parsing failures.
## row col expected actual file
## 17174 classe_potentiel a double #VALEUR! 'data/radon.csv'
## 17183 classe_potentiel a double #VALEUR! 'data/radon.csv'
La fouille de données (data mining) permet de faire un lien entre les statistiques et les technologies de l’information (base de données, intelligence artificielle, apprentissage automatique (machine learning), utilisée pour la recherche d’informations dans les grandes bases de données médicales ou de santé. Les outils de collecte automatique des données et bases de données permettent de stocker dans des entrepôts d’énormes masses de données. La fouille de données et les entrepôts permettent l’extraction de connaissances.
L’utilisation de ces masses de données, issues de structures médicales, peut permettre d’acquérir de nouvelles connaissances via différents types d’études. Notamment avec le logiciel R.
Dans ce projet on est amenées à Construire un mini-entrepôt de données environnementales au format i2b2 Construire une application shiny pour explorer notre entrepôt de données Analysez la corrélation entre exposition environnementales et répartition des patients atteints de la maladie X par des méthodes de statistiques spatiales.
Pour l’aboutissement de notre projet nous avons choisis deux jeux de données : -polluants par établissements avec localisation établissements qui se compose de 9572 observations et 6 variables et 14954 observations et 15 variables provenant du site : https://public.opendatasoft.com/explore/dataset/registre-francais-des-emission-polluantes-etablissements/table/ -Radon se compose de 36104 observations et 5 variables et provient du site : https://www.data.gouv.fr/fr/datasets/connaitre-le-potentiel-radon-de-ma-commune/
Le registre des rejets et des transferts de polluants (RRTP) est un inventaire national des substances chimiques et/ou des polluants potentiellement dangereux rejetés dans l’air, l’eau et le sol de la production et du traitement des déchets dangereux et non dangereux Les attributs de cette base sont :
## nom codeCommune nomCommune
## Length:9572 Length:9572 Length:9572
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## cp designationAPE designationEPRTR
## Length:9572 Length:9572 Length:9572
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## Identifiant Nom Etablissement Numéro Siret
## Length:14954 Length:14954 Length:14954
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## Adresse Code Postal Commune
## Length:14954 Length:14954 Length:14954
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## Departement Region coordonnées_x
## Length:14954 Length:14954 Length:14954
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## coordonnées_y Code APE Libellé APE
## Length:14954 Length:14954 Length:14954
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
## Code Eprtr Libelle Eprtr coordonnees
## Length:14954 Length:14954 Length:14954
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
Le radon qui est un gaz radioactif produit par la désintégration naturelle de l’uranium présent dans les roches. Cancérigène pulmonaire, il présente un risque pour la santé lorsqu’il s’accumule dans les bâtiments. L’étude de jeux de données nous permet de voir le potentiel radon dans chaque commune, les attributs de cette base de données sont :
## nom_comm nom_dept insee_com classe_potentiel
## Length:36096 Length:36096 Length:36096 Min. :1.00
## Class :character Class :character Class :character 1st Qu.:1.00
## Mode :character Mode :character Mode :character Median :1.00
## Mean :1.45
## 3rd Qu.:2.00
## Max. :3.00
## NA's :2
## reg
## Length:36096
## Class :character
## Mode :character
##
##
##
##
Après avoir choisi les deux jeux de données, bien les analyser et étudier on est passé à l’étape de la construction de notre entrepôt de données à partir des deux jeux donnés Et cela au format i2b2 (Informatics for Integrating Biology & the Bedside) Donc la fouille de données qui consistait à analyser les jeux de données choisit nous a permis d’extraire des connaissances. Regrouper des techniques statistiques et ainsi pouvoir construire notre propre entrepôt de données. Les données de notre entrepôt au format i2b2 résident est décrite dans le schéma en étoile suivant qui est la structure de données la plus utilisée et la plus appropriée aux requêtes et analyses des utilisateurs d’entrepôts de données
A caption
Comme le décrit le schéma ci-dessus : La Table centrale « commune » qui contient les données observables les faits qui sont numérique et d’ordre quantitatif que l’on possède que l’on veut étudier (classe Radon, nombre établissement par département et commune …), selon divers axes d’analyse les dimensions qui sont les tables de dimensions (informations, localisation établissement, localisation, établissement polluant) selon lesquels on veut étudier les données observables (les faits).
1-Création de la base de données: On a créé la table Établissement qui est la jointure entre la table polluant Par Établissement et localisation Par Établissement Ensuite on a fait la jointure de la table crée et la table radon selon le Département.
| Nom Etablissement | Identifiant | Numéro Siret | Adresse | Code Postal | Commune | Departement | Region | coordonnées_x | coordonnées_y | Code APE | Libellé APE | Code Eprtr | Libelle Eprtr | coordonnees | lng | lat |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ‘ONYX Auv. Rhône Alpes’‘Plateforme de production d’amendement Organique’’’ | 056.01460 | 30259089800516 | Champ Viollant | 63260 | AUBIAT | PUY-DE-DOME | AUVERGNE | 667141.2 | 2109301.48 | 3821Z | Traitement et élimination des déchets non dangereux | 5.(c) | Installations destinées à l’élimination des déchets non dangereux d’une capacité de 50 tonnes par jour | 45.9806220489, 3.20302004009 | 45.98062 | 3.203020 |
| ‘Onyx Auvergne Rhône Alpes’‘Auvergne Déchets Spéciaux’’’ | 056.00360 | 30259089800490 | Rue François Arago ZI Sud | 63360 | GERZAT | PUY-DE-DOME | AUVERGNE | 662577 | 2091585 | 3812Z | Collecte des déchets dangereux | 5.(a) | Installations pour la valorisation ou l’élimination des déchets dangereux recevant 10 tonnes par jour | 45.8216749812, 3.1417817053 | 45.82167 | 3.141782 |
| .SYNTHEXIM | 070.00882 | 41444299600024 | .ZI des Dunes Rue des Mouettes | 62100 | CALAIS | PAS-DE-CALAIS | NORD-PAS-DE-CALAIS | 569213.5892939 | 2663865.1717914 | 2110Z | Fabrication de produits pharmaceutiques de base | 4.(e) | Installations utilisant un procédé chimique ou biologique pour la fabrication industrielle de produits pharmaceutiques de base | 50.9670870286, 1.89935000532 | 50.96709 | 1.899350 |
| 1° RHC | 090.00115 | 15400074900015 | quartier LA HORIE Phalsbourg | 57373 | PHALSBOURG | MOSELLE | LORRAINE | 957705 | 2430229 | 8422Z | Défense | NA | NA | 48.770838746, 7.20355174478 | 48.77084 | 7.203552 |
| 1000 PIECES AUTOS | 062.06362 | 42159285800011 | rue Jean Prouvé | 57600 | FORBACH | MOSELLE | LORRAINE | 930809 | 2473458 | 4532Z | Commerce de détail d’équipements automobiles | 5.(a) | Installations pour la valorisation ou l’élimination des déchets dangereux recevant 10 tonnes par jour | 49.1730717207, 6.87233533978 | 49.17307 | 6.872335 |
| 12° base de soutien du matériel | 090.00017 | 15000062800019 | Route du camp | 36100 | NEUVY-PAILLOUX | INDRE | CENTRE | 562585 | 2208900 | 8422Z | Défense | 2.(f) | Installations de traitement de surface de métaux et des matières plastiques utilisant un procédé électrolytique ou chimique lorsque le volume des cuves affectées au traitement est égal à 30 m3 | 46.8789631151, 1.84564020341 | 46.87896 | 1.845640 |
| 12e BSMAT - Détachement de GIEN | 090.00141 | 15000082600019 | 97 - avenue Wilson BP 70029 45501 GIEN Cedex | 45500 | GIEN | LOIRET | CENTRE | 622133.567 | 2299665.309 | 8422Z | Défense | NA | NA | 47.6961111769, 2.63138874436 | 47.69611 | 2.631389 |
| 12ème Régiment de Cuirassiers | 090.00259 | 13001364200017 | Quartier Valmy BP 119 | 45161 | OLIVET | LOIRET | CENTRE | 565655.854 | 2313276.541 | 8422Z | Défense | NA | NA | 47.8179948595, 1.87792691809 | 47.81799 | 1.877927 |
| 13ème Base de Soutien du Matériel | 090.00011 | 15400005300384 | Rue de l’arsenal BP 20 | 63035 | CLERMONT-FERRAND | PUY-DE-DOME | AUVERGNE | 662000 | 2088600 | 8422Z | Défense | 2.(f) | Installations de traitement de surface de métaux et des matières plastiques utilisant un procédé électrolytique ou chimique lorsque le volume des cuves affectées au traitement est égal à 30 m3 | 45.7948739418, 3.13396807135 | 45.79487 | 3.133968 |
| 13ème BSMAT - Détachement de Moulins | 090.00254 | 15000065100011 | Détachement de Moulins 57 - rue des Époux Contoux BP 74 | 03402 | YZEURE | ALLIER | AUVERGNE | 677503 | 2172031 | 8422Z | Défense | NA | NA | 46.5438436592, 3.34712959593 | 46.54384 | 3.347130 |
| nom_dept | nom_comm | insee_com | classe_potentiel | reg | Nom.Etablissement | Identifiant | Numéro.Siret | Adresse | Code.Postal | Region | coordonnées_x | coordonnées_y | Code.APE | Libellé.APE | Code.Eprtr | Libelle.Eprtr | coordonnees | lat | lng | dep | ratio | nom_comm.1 | insee_com.1 | classe_potentiel.1 | reg.1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ain | amberieuenbugey | 1004 | 2 | FR | COFIBEX | 061.01975 | 43425026200012 | ZI - avenue de la Libération | 01502 | RHONE-ALPES | 833608 | 2110837 | 6420Z | Activités des sociétés holding | NA | NA | 45.9574744756, 5.35072592907 | 5.350726 | 45.95747 | ain | 3.29 | montanges | 1257 | 2 | FR |
| ain | anglefort | 1010 | 1 | FR | FERROPEM - Usine d’Anglefort | 061.01980 | 64200517700265 | Route de la gare | 01350 | RHONE-ALPES | 868107.39 | 2106979.01 | 2410Z | Sidérurgie | 2.(e).(i) | destinées à la production de métaux bruts non ferreux à partir de minerais - de concentrés ou de matières premières secondaires par procédés métallurgiques - chimiques ou électrolytiques | 45.9100235004, 5.7931381264 | 5.793138 | 45.91002 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | ARKEMA | 061.12329 | 31963279000345 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2016Z | Fabrication de matières plastiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | EGP BALAN | 061.01988 | 44838376000015 | 65 - rue des Sapinettes | 01360 | RHONE-ALPES | 814600 | 2096400 | 2561Z | Traitement et revêtement des métaux | NA | NA | 45.8339561598, 5.09913900724 | 5.099139 | 45.83396 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | ARKEMA | 061.12329 | 31963279000345 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2016Z | Fabrication de matières plastiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | KEM ONE BALAN | 061.01989 | 53869504000039 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2014Z | Fabrication d’autres produits chimiques organiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | ARKEMA | 061.12329 | 31963279000345 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2016Z | Fabrication de matières plastiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | ARKEMA | 061.12329 | 31963279000345 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2016Z | Fabrication de matières plastiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | balan | 1027 | 1 | FR | ARKEMA | 061.12329 | 31963279000345 | 258 route de Saint Maurice de Gourdans | 01360 | RHONE-ALPES | 814731 | 2097896 | 2016Z | Fabrication de matières plastiques de base | 4.(a).(viii) | matières plastiques de base (polymères - fibres synthétiques - fibres à base de cellulose) | 45.8473656184, 5.10150104057 | 5.101501 | 45.84737 | ain | 3.29 | villemotier | 1445 | 1 | FR |
| ain | bellegardesurvalserine | 1033 | 2 | FR | Usine d’incinération d’ordures ménagères | 061.02002 | 25740162000030 | ZI d’Arlod 5 chemin du Tapey | 01200 | RHONE-ALPES | 869803 | 2129343 | 3821Z | Traitement et élimination des déchets non dangereux | 5.(b) | Installations destinées à l’incinération des déchets non dangereux dans le cadre de la directive 2000/76/CE du Parlement européen et du Conseil du 4 décembre 2000 sur l’incinération des déchets d’une capacité de 3 tonnes par heure | 46.1103602153, 5.82776664722 | 5.827767 | 46.11036 | ain | 3.29 | montanges | 1257 | 2 | FR |
Table 2 :Etablissement Polluant avec Potentiel Radon On a ensuite utilisé cette table ( colonne coordonnées sachant que la longitude et la latitude sont séparé par une virgule) pour crée un spatial polygon data frame pour modéliser nos points dans la carte # Conception des cartes de France en fonctions de plusieurs attributs
Concernant les données geographiques nous babons importé un fichier qu’on trouvé sur GiTHUB qui est un Spatial Polygon Data Frame , afin d’avoir les coordonnées des polygones selon les departements a partir des codes INSEE des communes , nous avons par la suite fait une jointure entre les données geographique et le potentiel radon ainsi que l’incidence de la maladie X .
On a réalisé une première carte qui représente le potentiel Radon dans chaque département
Carte 1Potentiel Radon par Departement La seconde carte représente le ratio de l’évènement de la maladie X selon les Régions(carte2)
knitr::opts_chunk$set(echo = TRUE)
Carte 2Incidence Maladie par Departement La troisième carte représente la carte de France par département avec des Marqueurs qui font référence à tous les établissements
(carte3)
knitr::opts_chunk$set(echo = TRUE)
Carte 3Etablissement Polluants
A caption
L’utilisations de l’application shiny nous a permis d’avoir une seule carte interactive avec laquelle on peut changer à chaque fois l’attribut que l’on voudra étudier et représenter.
Mais aussi réaliser plusieurs histogrammes et cela en choisissant à chaque fois ce qu’on veut représenter, donc changer le libellé des axis selon le Libellé APE, Libelle Eprtr, Nom établissement, Code Eprtr
Nous avons choisi de sélectionne nos valeurs par départements on a opté pour cela, car pour région il y’a énormément de valeurs et commune ou contrairement on a peu de valeurs. Donc choisir les valeurs de nos tables par département et mettre les communes en variable de couleurs étais le choix optimal que nous avons jugé objectif et satisfaisant pour notre application. Vous Pouvez trouver l’application Shiny dans le fichier AppShiny
## PhantomJS not found. You can install it with webshot::install_phantomjs(). If it is installed, please make sure the phantomjs executable can be found via the PATH variable.
## Characteristics of weights list object:
## Neighbour list object:
## Number of regions: 96
## Number of nonzero links: 476
## Percentage nonzero weights: 5.164931
## Average number of links: 4.958333
##
## Weights style: W
## Weights constants summary:
## n nn S0 S1 S2
## W 96 9216 96 44.29206 391.9874
Nous avons effectué le test de Morane , avec le bootstrap , nous avons obtenu une p.value assez ellevé et un indice de Morane Negatif ce qui explique donc l’absence d’autocorrelation spatiale pour l’incidance de la maladie X en fonction des departements
##
## Moran I test under normality
##
## data: ratioEvenement$ratio
## weights: matrice_conguiteQ
##
## Moran I statistic standard deviate = 0.14069, p-value = 0.8881
## alternative hypothesis: two.sided
## sample estimates:
## Moran I statistic Expectation Variance
## -0.001007117 -0.010526316 0.004578167
# Tests de gary Meme resultats , qui expliquee l’absence d’autocorrelation spatial par rapport a l’incidence de la maladie X
##
## Geary C test under randomisation
##
## data: ratioEvenement$ratio
## weights: matrice_conguiteQ
##
## Geary C statistic standard deviate = -0.58119, p-value = 0.5611
## alternative hypothesis: two.sided
## sample estimates:
## Geary C statistic Expectation Variance
## 1.041589500 1.000000000 0.005120805
Nous avons ensuite effectué un autocorrelogramee pour confirmer l’Hypotese que l’incidence de la maladie est independante de ca localisation geographique #Test de Stone : Nous avons appliquer le test de Stone sur l’incidance de la maladie X par rapport au potentiel radon par departement la p.value est toujours tres elevé ce qui montre l’absence d’autocorrelation spatiale entre ces 2 attributs , Voici Un Exemple pour Paris
## Stone's Test for raised incidence around locations
##
## Type of boots.: parametric
## Model used when sampling: Poisson
## Number of simulations: 99
## Statistic: 1
## p-value : 1